Large Language Model

Ein Large Language Model, kurz LLM (englisch, vereinzelt übertragen großes Sprachmodell), ist ein Sprachmodell, das sich durch seine Fähigkeit zur unspezifischen Erzeugung von Texten auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat.

Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viele Rechenressourcen.^[1] Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze (im Grunde genommen sogenannte Transformer^[2]) und werden (a priori) entweder durch selbst überwachtes Lernen oder halb überwachte Lernmethoden trainiert.

Große Sprachmodelle arbeiten als selbst anpassende Sprachmodelle, die verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen.^[3] Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung. Größere Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe von Prompt Engineering ähnliche Ergebnisse erzielen können.^[4] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass Große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.^[5]

LLMs werden beispielsweise bei Open Assistant, ChatGPT, Ernie Bot und Grok eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von OpenAI (z. B. GPT-3.5 und GPT-4, die in ChatGPT und Microsoft Copilot verwendet werden), Googles PaLM und Gemini (verwendet in Bard), Metas LLaMA-Familie von Open-Source-Modellen, Anthropics Claude und X.AIs Grok-1.

↑ Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).
↑ Rick Merritt: What Is a Transformer Model? 25. März 2022, abgerufen am 15. Januar 2024 (englisch).
↑ Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier S. 319) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. Eight Things to Know about Large Language Models
↑ Language Models are Few-Shot Learners. (PDF) Abgerufen am 15. Januar 2024.
↑ Human Language Understanding & Reasoning. 13. April 2022, abgerufen am 15. Januar 2024 (englisch).

[1] Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).

[2] Rick Merritt: What Is a Transformer Model? 25. März 2022, abgerufen am 15. Januar 2024 (englisch).

[3] Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier S. 319) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. Eight Things to Know about Large Language Models

[4] Language Models are Few-Shot Learners. (PDF) Abgerufen am 15. Januar 2024.

[5] Human Language Understanding & Reasoning. 13. April 2022, abgerufen am 15. Januar 2024 (englisch).

[1]

[2]

[3]

[4]

[5]